TheoremBench: Evaluación de LLMs en demostración de teoremas matemáticos formales
TheoremBench evalúa LLMs en Lean4 con teoremas clásicos y subteoremas. Mide cobertura y eficiencia para revelar debilidades en razonamiento formal.
TheoremBench evalúa LLMs en Lean4 con teoremas clásicos y subteoremas. Mide cobertura y eficiencia para revelar debilidades en razonamiento formal.
Aprende sobre Feedback Distillation, un método que mejora la demostración de teoremas en Lean4 superando al GRPO. Incrementa diversidad y eficiencia en el entrenamiento de modelos de razonamiento.
Descubre el marco teórico para algoritmos de auto-play que logran crecimiento exponencial de teoremas probados, con mejora de diversidad usando similitud de difusión.
Descubre ProofWala, un framework open-source para síntesis de pruebas multilingüe y demostración de teoremas con IA. Acelera tu investigación.